GTC 大會上人人都在談 Agent 和具身智能,但真正讓我理解 AI 如何進入物理世界的,是在一台極氪 9X 裡發生的兩場對話。觸目所及,滿眼都是綠色。圍繞著展覽館區域,整個聖何塞市中心,包括人們胸前的證件,充滿了矽谷特有的「賽博綠」。這是輝達 GTC2026 大會的現場,全球超過 3 萬人,來到這裡,希望能更貼近快速進化的 AI 的最前沿。彷彿受到人們熱情的感染,加州今年的天氣反常,3 月中旬中午氣溫躥升到 20 度以上,陽光照在人們熱切的臉上,反射出焦慮的光暈。僅僅兩年時間,人們口中聊的,已經從大模型、算力變成了現在的 AI Agent、具身智能和世界模型——就像十年前 AI 從輝達的加速計算晶片中迸發而出,躲在 AI Bot 對話方塊中的人工智慧,現在正在如水銀瀉地般進入到人們生活的物理世界中。極氪 8X 亮相 GTC2026|圖片來源:吉利汽車在主會場 SJCC 對面,主流車企和自動駕駛公司的展車在戶外進行展示——讓我頗感意外的是,在國內沒能摸上的吉利汽車集團的新車極氪 8X,卻在聖何塞看到了。吉利汽車集團亮相輝達 GTC 2026 大會, CTO 李傳海發表主題演講,向人們介紹吉利汽車集團的全域 AI2.0 戰略,詳細描述超級智能體超級 Eva,和千里浩瀚 G-ASD 的高階智能駕駛。在輝達宣佈的智能駕駛計畫中,吉利汽車集團作為合作夥伴,也將加入到「Hyperion」計畫之中,在高階智能駕駛領域和 AI 霸主進行深度合作。看起來,當 AI 進入 3D 世界中時,目前最好的載體,正是智能汽車,而非人們寄予厚望的人形機器人。這個觀點,在與兩位在矽谷進行「空間智能」研究的創業者對談中,再次得到了驗證。01. 從模型的世界,到世界的模型和第一位對談者胡淵鳴的見面地點有些特殊——一台極氪 9X 的車內。胡淵鳴在 AI 圈不算一個陌生的名字。MIT 博士畢業,回國創辦了太極圖形,做開放原始碼的物理模擬引擎,之後轉型做了 Meshy AI——一個用 AI 把圖片或文字變成 3D 模型的工具。一張圖變成一個可旋轉、可列印的 3D 模型,從兩周縮短到兩分鐘,從 1000 美元降到 1 美元。這個產品目前在全球主要市場的份額超過了第二名到第五名的總和,ARR 已經做到了 4000 萬美元。不過讓我更好奇的是,胡淵鳴最近正在做一件新的事情——AI 原生遊戲。「我在想世界模型做出來以後,它到底能解決什麼問題?」胡淵鳴說,自動駕駛訓練和機器人訓練肯定是一個方向,但他個人更想用世界模型,給玩家提供一種全新的遊戲體驗。所謂 AI 原生遊戲,就是離開了 AI 就沒法玩,而且因為 AI 的存在變得更好玩。這不是在遊戲裡套一層 AI 外衣。胡淵鳴想做的是把 AI,深度整合到遊戲的核心玩法裡——每一次遊玩、不同的人來玩、甚至同一個人不同時間段玩,感受都完全不同。他給我打了一個比方,想像有一個頂級的遊戲設計師加上一個頂級的程式設計師,在你玩第一局的 5 分鐘裡,已經根據你的情況給你重新設計了第二局的內容。這個產品是一個俯視角的動作 RPG,有點像《暗黑破壞神》的核心機制,已經可以玩了,很快會登陸 Steam。但這件事背後有一個更大的問題。世界模型到底應該怎麼做?胡淵鳴給出了一個非常清晰的分類。目前有兩條主要的技術路線,第一條是端到端的像素生成,用即時視訊擴散模型,直接從像素到像素;第二條是用 AI 生成 3D 物體和場景資產,再用遊戲引擎或即時渲染工具,把它們組裝成可以漫遊的世界。前者更「純粹」,後者更「混合」。兩條路線各有優劣,但胡淵鳴認為未來一定是兩者融合的狀態——隨著技術演進,能混合進去的 AI 成分會越來越多。VLA 和世界模型是目前智駕方案主流的技術選項|圖片來源:吉利汽車聊到這裡,話題很自然地轉向了智能駕駛。因為智駕訓練,恰恰是世界模型最重要的應用場景之一。胡淵鳴是特斯拉 FSD 的重度使用者。他告訴我一個讓他自己都刷新認知的資料——他以為自己大概 90% 的時間在用 FSD,結果後台統計顯示是 99%。「我現在開車的職責已經從駕駛員變成了監督員,我就確保它不要撞就行了。」不過作為一個技術人,他對 3D 資產在智駕訓練中的價值有很深的理解。「即使是純視覺的方案,你也可能需要像 Meshy 這樣的工具,去給它生成路上的障礙物、電線杆、行人、路牌。你的資料有多豐富,魯棒性就有多強。」這讓我想到了這台極氪 9X 上搭載的千里浩瀚 G-ASD 智駕系統。它背後是吉利旗下 850 萬輛車積累的百億公里行駛資料、2500 萬 clips 高價值場景片段,甚至還有沃爾沃 55 年的事故資料庫。而在這次 GTC 上,吉利剛剛宣佈千里浩瀚 G-ASD 將整合輝達的 Cosmos 和 NuRec 技術,進一步提升智駕的模擬訓練效率。吉利集團在 GTC2026 上詳細闡述了高階智駕千里浩瀚 G-ASD 技術|圖片來源:吉利汽車胡淵鳴還給了我一個很有意思的判斷。他認為智駕需要的智能,和大語言模型是兩種不同的東西。「大語言模型講究見多識廣、chain of thought、context length 很長,但這些在自動駕駛裡面不一定是最重要的事情。智駕本質上還是一個垂直的東西,它需要的是對物理環境的感知、預測和行為決策。」那智能座艙呢?我問他,如果有一台車能自己判斷你冷還是熱,直接幫你調空調,你會為此買單嗎?「我覺得可能會。」胡淵鳴說,他在特斯拉上經常反覆調溫度,一會覺得冷一會覺得熱。「如果它能知道我需要什麼,不用我去調,那我就不用多操心了。你還讓我張口乾啥?直接檢測我到底要多少度,一步到位得了。」他的這句話讓我印象深刻。因為吉利全域 AI2.0 發佈的超級 Eva,做的恰恰就是這件事——不是一個聊天機器人,而是一個能感知你聲調、識別面部微表情、結合你歷史行為模式,主動幫你調整燈光、音樂、座椅、空調的「整車智能體」。胡淵鳴最後說了一句,讓我忍不住在心裡記下來的話——「你要是在中國的道路條件能把這個東西搞定,那你到這邊(美國)來就是降維打擊了。」02. 從空間智能,到智能空間極客公園對話的另一位嘉賓是王熠鵬,李飛飛創辦的 World Labs 的研究工程師。和胡淵鳴不同,王熠鵬的身份更偏研究者。他之前在 Meta 的 Reality Labs 做 3D 空間重建,後來加入 Pika 做視訊生成——2024 年底出的 Pika 2.0,確確實實打爆了第一代 Sora 的水平——之後又加入 World Labs,從事世界模型的研究。三段經歷看似跨度很大,但背後有一條清晰的技術主線,用他自己的話說,就是「讓 AI 真正學到 3D 空間的知識」。在 Meta 做 3D 重建的時候,他操刀了一個項目,讓重建出來的三維空間裡的物品可以被拿起來、移動、互動。但遇到了一堆技術瓶頸——把椅子從空間裡移出來,地板上就有洞,物件之間會黏連。當時找到的解決辦法是用 2D 的擴散模型來「補漏」,因為它已經從大量圖片的預訓練中學到了一些世界的規律。「但這個整個操作顯得非常工程化,它不是一個特別優雅的解決方案。」王熠鵬回憶說。然後 Sora 出現了。「最大的震動肯定還是 Sora 出現的時候。」王熠鵬說,他們發現視訊生成模型在對世界二維投影的學習中,居然湧現出了一種更高維的、三維的歸納偏置。3D 從一個「表徵」,變成了一個用來引導模型的「控制手段」。這就是空間智能的起點。我問他,空間智能和之前的 3D 視覺、具身智能,到底有什麼本質區別?World Labs 讓使用者可以非常輕鬆的建立可互動的 3D 環境|圖片來源:World Labs王熠鵬給了一個非常形象的類比。「3D 可以理解為創造領域的一種程式碼。」 就像 LLM 生成 Python 程式碼來和人溝通一樣,3D 是設計師、建築師、遊戲開發者和機器之間溝通的橋樑。以前做動畫片是手繪,後來變成了 3D 建模,效率和周期都大幅提升。同樣的道理,如果把 AI 視訊的控制方式從 2D 升維到 3D,就能更好地解決場景一致性、人物一致性和可編輯能力。那讓 AI 生成的內容符合真實世界的物理規律,到底有多難?王熠鵬說了一個讓我很受啟發的區分。他把 AI 學到的物理分成了兩個層次。第一層是「直覺物理」,類似大學之前學的牛頓定律,它描述的是我們看得到的、身邊物體的運動,比較符合人的直覺。 現在的視訊模型和視覺模型,通過海量真實世界資料的預訓練,基本上能學到這個層次。第二層是「推理物理」,類似量子物理和相對論,完全反直覺,光靠觀察根本觀察不到,需要極強的推理和長鏈條的邏輯推導。 一個模型能不能在從來不知道相對論的情況下,自己推匯出相對論?這是一個沒有人知道答案的問題,也是目前學術界最大的研究目標之一。王熠鵬認為,解決這個問題可能需要一種混合模型——世界模型提供物理直覺,LLM 的推理能力提供邏輯鏈條,兩者結合才能讓 AI 真正「理解」物理世界,而不僅僅是「模仿」它。聊到這裡,我把話題引向了車。王熠鵬的回應讓我意外——他自己主動就聊到了車內場景。「比如說你可不可以有這麼一個模型,去預測車上乘客下一步要幹什麼。你手一伸,空調就打開了,都不需要語音助手,它馬上就理解你的意圖。」他說,「聽上去這個技術很遠,但放在生活場景裡,會有非常有意思的應用。」吉利智能助手超級 Eva|圖片來源:吉利汽車我當時腦子裡浮現的,就是吉利全域 AI2.0 發佈的超級 Eva——它的多模態感知融合加動態任務規劃引擎,正在做的就是這件事。識別後排有老人,整車自動調高空調溫度、切換舒適懸架、規劃避開顛簸路段的路線,同步調取他們愛聽的評書,預訂餐廳時備註「靠入口無台階座位」。王熠鵬還提到一個讓我很興奮的觀點。World Labs 做的場景生成模型,已經可以被用來做智駕的虛擬模擬訓練。Waymo 此前已經在用類似的技術來模擬極端場景——比如大象走在路上,比如前面的卡車上掉出來一頭豬。「自動駕駛需要解決長尾問題,這些資料在真實環境中非常難收集。但世界模型可以憑空生成這些極端場景,讓智駕系統提前訓練好應對方案。」這不禁讓我想到,這台極氪 9X 搭載的吉利千里浩瀚 G-ASD 正是利用端到端和世界行為模型 WAM,來讓車輛更好地瞭解周圍環境,進行推理思考,最後做出正確的行為決策。在對話的最後,我問他怎麼看空間智能和具身智能的關係。王熠鵬的回答是四個字——「殊途同歸」。他認為,不管是空間智能學到的 3D 世界規律,還是世界模型學到的動力學預測,還是具身智能需要的環境互動能力,最終都會匯聚到同一個目標——讓 AI 在真實物理世界中有效地行動。03. 空間智能和世界模型的交叉點兩場對話結束後,我在聖何塞的酒店裡整理錄音,腦子裡反覆在想一個問題——胡淵鳴和王熠鵬,一個做 3D 生成和世界模型,一個做空間智能和世界模型,兩個人的技術路徑看起來不同,但最終指向的其實是同一個方向。胡淵鳴說,世界模型有兩條路線,端到端的像素生成和 3D 資產混合渲染,未來一定會融合。王熠鵬說,空間智能需要從「直覺物理」進化到「推理物理」,需要世界模型和推理能力的結合。兩個人不約而同地得出了一個結論——要讓 AI 在物理世界中真正有效地行動,光有感知不夠,光有生成也不夠,必須讓模型學會「理解-預測-決策」這個完整閉環。胡淵鳴從 3D 資產生成的角度講了智駕模擬資料的重要性,王熠鵬從空間智能的角度講了世界模型對極端場景訓練的價值。兩個人還在完全不同的語境下,分別聊到了車內智能座艙的未來——一個說「直接檢測我到底要多少度,一步到位得了」,一個說「手一伸空調就開了,都不需要語音助手」。有意思的是,他們各自描繪的這個未來,吉利已經在嘗試用一套統一的技術框架來實現。吉利全域 AI2.0 戰略發佈的超級 Eva 和千里浩瀚 G-ASD|圖片來源:吉利汽車吉利在今年 CES 上首發的 WAM 世界行為模型(World Action Model),某種意義上就是在回應這兩位創業者提出的技術命題。WAM 的設計邏輯和王熠鵬說的「直覺物理+推理物理」的混合路徑高度一致。它採用分層架構,上層用多模態大模型進行宏觀任務規劃——相當於「推理層」;下層整合動作專家和世界模型,進行精細的推演和決策——相當於「直覺層」。更關鍵的是,吉利引入了人類在環的價值函數體系,用沃爾沃 55 年的事故資料和 850 萬輛車的百億公里行駛資料,訓練出一個「體驗評價官」,讓系統能夠對推演出的各種未來進行安全、舒適、效率的綜合打分,選擇最優解。這不就是王熠鵬說的「從直覺物理到推理物理」的工程化落地嗎?而胡淵鳴強調的「資料豐富度決定魯棒性」,在吉利的體系裡也有對應——千里浩瀚 G-ASD 擁有吉利旗下 850 萬輛車產生的百億公里實際行駛資料、2500 萬 clips 高價值場景資料,雲端多模態大模型加世界模型參數達千億等級。面對百億參數模型「上車」時的推理延遲難題,吉利用 4bit 量化、算子融合、稀疏注意力機制,把單幀推理時間壓到了 27 毫秒,滿足 40 毫秒的控制周期要求。在這個統一的 WAM 框架下,吉利的「艙駕融合」就變成了一件順理成章的事。超級 Eva 負責「想」。 它不是外掛在車上的獨立 AI,而是基於 WAM 與智駕、底盤、動力等底層系統原生融合的整車智能體。它用端到端語音大模型直接處理音訊訊號,可以感知你的聲調、識別面部微表情;它的動態任務規劃引擎可以把一句模糊的話——「帶我去接孩子放學,順便找一家麥當勞,5 點我要到學校」——拆解成線路規劃、智駕啟動、途經點導航、到校門口自主泊車的全鏈路操作;它還有短期和長期記憶架構,記得一周前你隨口提過的「女兒下周鋼琴比賽」,今天上車就會主動提醒。千里浩瀚 G-ASD 負責「動」。 它是 WAM 在智駕領域的工程化落地。雙 Thor 晶片提供 1400TOPS 算力,5 顆雷射雷達實現三重 360 度感知覆蓋,已經具備 L3 級智能駕駛方案的落地能力。在盲區丁字路口遇到電瓶車逆行和行人鬼探頭同時發生時,它的決策不是「剎停」或「通過」二選一,而是對減速、讓行、借道等多種可能性進行毫秒級推演,最終執行綜合風險、效率、舒適度後的最優博弈策略。一個負責想,一個負責動,由 WAM 統一調度。 這大概是我目前見到的,離兩位創業者描繪的那個「AI 能理解物理世界」的未來最近的量產方案。吉利還在 GTC 期間宣佈,極氪 8X 將首發搭載超級 Eva + G-ASD 4.0——全球首個打通智能座艙、智能輔助駕駛、數字生態的超級智能體。GTC 結束的那天晚上,我坐上了回酒店的 Uber。司機是個印度裔小哥,他問我在 GTC 上看到了什麼有意思的東西。我想了想說,可能最有意思的不是那個晶片或者那個模型,而是一個正在形成的共識——AI 要從位元世界進入原子世界,第一站不是實驗室裡的機器人,而是每天停在你家樓下的那台車。胡淵鳴說,AI 原生遊戲的世界「本身是一個生命體」。王熠鵬說,他希望 AI 空間是「真實的、以人為本的」。如果把這兩句話放在一起看,一台內嵌了世界模型、能理解空間、能預判行為、能自主決策的智能汽車,或許就是我們這個時代,第一個真正意義上的「AI 原生硬體」。 (極客公園)